近日,SemiAnalysis發佈文章《TPUv7: Google或終結輝達的CUDA護城河》指出,世界上最好的兩大模型Anthropic的Claude 4.5 Opus和Google的Gemini 3主要的訓練和推理基礎設施用的都是Google的TPUs和亞馬遜的Trainium,尤其Gemini 3完全是基於TPUs訓練的。事實上,Anthropic等AI實驗室現在可以通過採購(或者威脅採購)TPU,來作為與輝達談判的籌碼,從而大幅降低其GPU的總體擁有成本。黃仁勳從多年前反覆強調的、語氣詼諧但似乎又是不爭的事實的“The more you buy, the more you save”,本來是說The more GPUs you buy, the more money you save,現在似乎就要變成“The more TPUs you buy, the more GPUs you save”。Google2006年開始打造AI專用的基礎設施,到2013年忽然發現,如果要大規模部署AI,就需要讓資料中心的數量翻倍,於是伴隨著越發緊迫的算力需求,TPU晶片在2016年投產,一開始只用於Google內部的工作流,2018年面向GCP客戶提供服務,然後商業化路線越發清晰,現在不僅通過GCP讓TPU全端能力惠及外部客戶,而且作為供應商直接出售完整的TPU系統。今年10月,Anthropic宣佈進一步使用Google雲的技術,包括在2026年投入數百億美元,以多至100萬塊TPUs上線超過1吉瓦的算力,用以支援AI研究和產品研發。而在Anthropic之外,Meta、SSI、xAI等也已加入GoogleTPU的客戶名單。輝達前幾天甚至發文試圖穩住市場對自己的信心,雖然所謂“祝賀Google的成功(We’re delighted by Google’s success)”沒有明確指向是AI應用的成功還是基礎設施的成功——Perhaps both.想到上個月巴菲特的Berkshire Hathaway建倉Google母公司Alphabet,持倉43億美元,而這是股神首次買入“AI題材股”。想到薛兆豐老師的《漫畫經濟學》說:所謂的“內幕消息”都會提前反映在資產價格中。不過,這裡的“內幕消息”絕不只是浮於表面的“某條消息”。SemiAnalysis在兩三年前就預言“TPU霸權(TPU supremacy)”,過去一年的持續追蹤也證明了,GoogleTPU的強勢崛起已經成為一個顛覆性的市場力量。儘管單顆TPU晶片的理論峰值算力可能與輝達旗艦產品還有差距,但Google以卓越的系統級工程能力(system-level engineering)可以實現匹敵輝達的性能和成本效率——相較Gemini 3模型的成功,OpenAI自2024年5月發佈GPT-4o以來,還沒有成功完成一個可大規模部署的前沿模型的全規模預訓練任務;而在具有經濟價值的長程任務測試中,Gemini 3相較GPT 5.1更是毫無懸念地勝出。當然,縱使系統能力很重要,Google也沒有忽視微架構(microarchitecture)。之前Google的TPU設計理念相較輝達更為保守,主要是因為Google優先考慮RAS(可靠性、可用性、可服務性),願意犧牲極限性能來換取更高的可用性,因為硬體故障導致的停止成本會嚴重影響實際的TCO。畢竟,不同於輝達和AMD,Google沒有誇大外部宣傳指標的壓力,不用執著於實際上難以維持的“理論FLOPs峰值”,而且在2023年之前Google的主要AI負載是推薦系統模型,對超高算力的需求沒那麼迫切。但是,進入LLM時代,Google的TPU設計理念也在發生轉變。尤其最新兩代TPU(TPUv6 Trillium和TPUv7 Ironwood)——v6在相同製程和晶片面積下實現了2倍的峰值算力提升,且功耗顯著降低;v7則幾乎全面縮小了與輝達旗艦產品的差距,在算力、記憶體頻寬上接近GB200。事實上,從Google自身的採購視角來看,TPUv7的總體擁有成本比直接採購輝達GB200伺服器要低大約44%,完全彌補了峰值算力和峰值記憶體頻寬方面大約10%的不足。即使是對於外部客戶而言,SemiAnalysis預估每小時的TCO仍然可以比GB200低約30%,比GB300低約41%。另外,TPU的一大特徵在於可以通過ICI互聯協議(Inter-Chip Interconnect)實現極大的規模化擴展,單個TPU pod可以支援高達9216顆Ironwood TPUs,這就可以避免多叢集通訊帶來的效率損耗。然而,GoogleTPU的部署速度受制於電力資源和緩慢的行政流程。對此,Google採用“表外信用擔保”模式,通過為Fluidstack等靈活的新興雲提供商(Neoclouds)提供背書,間接利用轉型礦商等新興資料中心提供商所擁有的電力和基礎設施。這個模式很大程度上解決了Neocloud行業的融資難題,i.e. 算力叢集4-5年的經濟壽命與資料中心15年以上租約的期限錯配,SemiAnalysis預測這種“超大規模雲服務商擔保”的模式或成為行業新標準。而CoreWeave、Nebius、Crusoe等與輝達深度繫結的Neoclouds未來可能需要在“爭奪Nvidia Rubin系統配額”與“開拓TPU市場”之間做出關鍵的戰略抉擇。AI算力市場格局正在發生深刻的變革。GoogleTPU的成功意味著AI算力市場不再是輝達“一家獨大”,而競爭或迫使所有廠商不斷推進技術創新和成本最佳化,或許可以推動整個AI產業以更低的門檻、更高的效率向前發展。 (訪穀神)